王梦迪团队推出TraceRL:迈向扩散语言模型「RL大一统」 然而,业内目前缺少一个可适用于各种 DLM 架构(如全注意力 DLM 和块注意力 DLM)的统一且有效的强化学习(RL)框架。同时,现有研究也忽视了对齐推理轨迹与训练目标的重要性。 模型 rl 王梦迪 tracerl 王梦迪团队 2025-09-15 17:27 2